Más allá del descenso de espejo estado por estado: Optimización de políticas offline con políticas paramétricas
Descubre la optimización offline de políticas paramétricas que va más allá del descenso de espejo, con técnicas avanzadas para aprendizaje por refuerzo.